Metadaten-Verwaltung in einem verteilten RAM-basierten Speicherdienst
نویسنده
چکیده
Traditional disk-based storage solutions face problems with fast data access to billions of small data objects, as needed by large-scale interactive web applications and online graph processing. Because of the often irregular access patterns they must keep almost all data in RAM caches, which need to be manually synchronized with secondary storage and need a lot of time to be reloaded in case of power outages. DXRAM addresses this challenge by keeping all data always in RAM of potentially many nodes aggregated in a data center. The main aims of DXRAM are support of billions of small data objects (16-64 byte) and providing persistence by a novel SSD-aware logging approach allowing to recover failed nodes very fast. Although data and meta-data management are widely researched the sheer amount of very small objects rises new problems. The use of supercomputers can lessen the problems, but is very cost-intensiv. Therefore the use of traditional PCs is preferred. This thesis presents a novel integrated approach of local and global meta-data management allowing a fast data access and high throughput while being very space-efficient. The local meta-data management includes an efficient paging-like translation scheme for global IDs to virtual memory addresses and a memory management optimized for many small data objects. A novel memory allocator allows to reduce the meta-data for allocations down to two bytes per object, allowing to store over one billion objects per node (with 32 GB of memory per node). Changing data granularities is supported by an efficient incremental defragmentation which can run in the background or as needed parallel to the overall system. A super-peer-overlay is used for a range-based meta-data management allowing fast node lookups while being space-efficient by combining object IDs in ranges. The super-peers manage these ranges together with backup-node information to support parallel and fast recovery of meta data and data of failed peers. Furthermore, the same concept can also be used for caching. The choosen peer-to-peer approach allows to use the storage system as self-contained backend storage or to run application code on the storage nodes. Both local and global meta-data management have been successfully evaluated and compared with state-of-the-art approaches and systems and the results show the high throughput and the very efficient memory usage, which are better than traditional systems.
منابع مشابه
Anfragebearbeitung und Routing in Schema-basierten P2P-Systemen
Zusammenfassung Im Zusammenhang mit Filesharing-Anwendungen und skalierbaren verteilten Datenstrukturen hat sich das Peer-to-Peer (P2P) Paradigma in jüngster Zeit immer stärker verbreitet. Aufgrund ihres dezentralen Charakters versprechen P2P-Systeme erhöhte Robustheit und Skalierbarkeit und eröffnen dadurch neue Möglichkeiten für Datenintegrationsanwendungen. In solchen Schema-basierten P2P-Sy...
متن کاملDas Common Warehouse Metamodel - ein Referenzmodell für Data-Warehouse-Metadaten
Der vorliegende Beitrag beschreibt das Vorgehen zur Realisierung eines integrierten Metadatenmanagements im Data-Warehouse-Projekt einer Schweizer Universalbank. Untersucht wurde insbesondere, inwieweit das Common Warehouse Metamodell der Object Management Group geeignet ist, als Referenzmodell für die Metadatenbasis herangezogen zu werden. Nach einem Überblick über das Referenzmodell werden da...
متن کاملOrtsunabhängiges Management von hochpreisigen mobilen medizinischen Geräten im Krankenhaus auf WLAN-Basis
Ziel des vorliegenden Vorhabens ist die Entwicklung einer Lösung zum ortsunabhängigen Medizingerätemanagement im Klinikbetrieb. Standort oder Betriebsbereitschaft der über das gesamte Klinikum verteilten hochpreisigen mobilen medizinischen Geräte sind oftmals unklar. Durch die Schaffung einer geeigneten Infrastruktur können Geräte lokalisiert, ausgewählte Parameter automatisch ausgelesen und au...
متن کاملMITO - eine Plattform zur Unterstützung der kollaborativen Erstellung und des Austausch von Lerninhalten im heterogenen Umfeld
Mit zunehmender Virtualisierung im Bildungsbereich entsteht der Bedarf Kurse und Lehrinhalte überregional anzupassen, auszutauschen und mit neuen multimedialen Technologien aufzubereiten. Viele Projekte dieser Art werden dementsprechend gefördert. Charakteristisch für diese Projekte sind sehr heterogene Umgebungen. Die Projektpartner arbeiten an verschiedenen Standorten und verwenden jeweils un...
متن کاملVerteilte Metadatenverwaltung für die Anfragebearbeitung auf Internet-Datenquellen
Zusammenfassung Durch die Zunahme von E-Commerce-Anwendungen verstärkt sich die Bedeutung der verteilten Datenverarbeitung von Datenquellen im Internet. Viele Firmen schließen sich zu virtuellen Unternehmen zusammen oder gründen gemeinsam virtuelle Marktplätze. Dabei erschweren ständige Veränderungen der verfügbaren Ressourcen (z. B. Datenquellen) und ein permanent fluktuierender Teilnehmerkrei...
متن کامل